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摘要 : 【背景 及 目的 】 作 者 识别 正在 向 多 层次 特征 的 使 用 发 展 ， 而 相 较 于 文体 风格 特征 ， 

主题 特征 在 历来 作者 识别 研究 应 用 中 仍 是 少数 ， 特 别 是 针对 中 文 社 交 媒 体 文本 的 作者 识别 。 
同时 针对 主题 特征 的 利用 研究 ， 更 多 的 是 对 主题 特征 的 抽取 技术 和 方法 的 创新 ， 而 未 对 识 
别 出 的 主题 以 及 主题 特征 的 应 用 方法 进行 进一步 研究 。 所 以 ， 本 研究 以 主题 特征 在 中 文 社 
交 媒 体 文 本 作者 识别 中 的 使 用 研究 为 基本 目的 ， 同 时 进一步 制定 策略 对 主题 特征 中 的 核心 
主题 进行 识别 和 筛选 ， 优 化 主题 特征 的 使 用 方法 ， 从 而 提高 主题 特征 在 作者 识别 中 的 使 用 
效果 。【 方 法 】 研 究 首先 利用 LDA 主题 模型 抽取 候选 作者 的 学 术 主题 和 社交 主题 ， 然 后 利 
定 合并 往 选 策略 进行 核心 主题 的 识别 和 表示 ， 最 后 结合 N-gram 特征 和 相似 
度 计算 的 办 法 实现 作者 识别 。【 结 果 】 实 验 结果 显示 主题 特征 在 本 研究 语 料 上 对 作者 识别 
有 一 定 的 积极 作用 ， 同 时 本 研究 提出 的 核心 主题 特征 相关 策略 和 应 用 也 能 优化 主题 特征 的 
使 用 效果 。 
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Abstract: [Background and purpose] Author recognition is developing towards the use of multi- 
level features. Compared with stylistic features, thematic features are still a few in the research 
and application of author recognition, especially for Chinese social media texts. At the same time, 
the research on the use of topic features focuses more on the innovation of the extraction 
technology and methods of topic features, but not on the identified topics and the application 
methods of topic features. Therefore, the basic purpose of this study is to study the use of topic 
features in the author recognition of Chinese social media texts, and further develop strategies to 
identify and screen the core topics in the topic features, optimize the use of topic features, so as to 
improve the use effect of topic features in the author recognition. [Methods] The research first 
uses the LDA topic model to extract the academic topics and social topics of the candidate 
authors, and then uses Word2vec to develop a merge screening strategy to identify and represent 
the core topics, and finally uses N-gram features and similarity calculation to achieve author 


recognition. [Results] The experimental results showed that the thematic features had a certain 
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positive effect on the author's recognition in the corpus of this study, and the strategies and 
applications related to the core thematic features proposed in this study could also optimize the 
use of thematic features. 
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media text 
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0 引言 


近年 来 ， 关 于 中 文 社交 媒体 文本 作者 身份 识别 研究 一 直 受 到 关注 ， 已 经 取得 一 些 研 究 
成 果 ， 这 些 研究 主要 实现 不 同 网 络 平台 、 不 同 社区 、 不 同 话题 中 同一 作者 信息 的 识别 ， 识 
别 方法 主要 基于 文体 风格 特征 ， 而 利用 文本 主题 特征 研究 不 够 。 同 时 ， 针 对 科研 人 员 的 人 
才 评 价 等 工作 随 着 进入 大 数据 时 代 ， 不 仅 要 利用 学 术 论 文 等 数据 ， 还 要 利用 科研 人 员 相 关 
的 社交 媒体 信息 、 学 术 交 流 信息 、 教 学 信息 等 多 类 型 数据 ， 这 使 得 针对 科研 人 员 的 信息 集 
成 也 成 为 关注 方向 。 
本 研究 将 基于 存在 的 类 似 科学 网 的 实名 认证 社交 媒体 平台 ， 在 作者 识别 任务 已 有 研究 
v 的 基础 上 ， 重 点 研究 主题 特征 在 中 文 社 交 媒 体 文本 作者 识别 中 的 作用 和 应 用 意义 ， 同 时 结 
合 科研 人 员 发 表 的 学 术 论 文 信息 制定 筛选 核心 主题 特征 的 相关 策略 提取 作者 的 核心 主题 特 
征 ， 并 考察 构建 的 核心 主题 特征 是 否 对 利用 主题 特征 进行 作者 识别 有 优化 效果 ， 以 期 结合 
文体 风格 特征 后 能 进一步 提高 作者 身份 识别 的 准确 性 和 全 面 性 
1 国内 外 研究 现状 


作者 识别 是 指 以 文本 内 容 和 文本 属性 为 依据 ， 抽 取出 不 同 作 者 在 文本 中 所 体现 的 不 同 
特征 ， 进 而 识别 出 文本 作者 中 的 研究 ， 而 作者 特征 可 以 从 反映 行文 风格 的 文体 风格 特征 和 
反映 文本 内 容 的 主题 特征 两 个 方向 进行 体现 。 文 体 风 格 特征 表现 了 作者 个 人 在 写作 活动 中 
的 言语 特征 ， 是 作者 个 人 风格 不 自觉 的 深刻 反映 ， 并 且 这 些 特征 又 可 以 在 一 定 程 度 上 通过 
数量 特征 来 进行 刻画 外。 主题 特征 则 是 作者 在 文章 中 通过 各 种 材料 所 表达 的 中 心意 思 ， 它 
渗透 、 贯 穿 于 文章 的 全 部 内 容 ， 体 现 着 作者 写作 的 主要 意图 口 。 

利用 文体 风格 特征 进行 作者 识别 的 起 源 最 早 可 追溯 到 1887 Æ T. C. Mendenhall xy xx; Jil 
作品 文体 特征 的 研究 ， 其 研究 是 使 用 词汇 构建 词 谱 并 描绘 特征 曲线 ， 为 莎士比亚 戏剧 的 作 
者 归属 争议 提供 了 新 的 论据 ， 进 一 步 的 ， 研 究 中 中 被 提出 使 用 功能 词 等 特殊 词汇 ， 令 使 用 
词汇 进行 作者 识别 更 加 精确 和 有 效 ; De Velg 等 人 则 将 标点 符号 等 符号 特征 作为 区 分 不 同 邮 
件 作 者 的 有 效 特征 ， 选 取 的 特征 在 聚合 和 多 主题 作者 分 类 识别 上 都 有 很 好 的 效果 ;， Keselj 
等 四 则 提出 一 种 通过 计算 和 比较 字符 N-gram 频率 识别 作者 的 方法 ， 研 究 者 同时 使 用 该 方法 
在 几 种 不 同 语言 中 均 进 行 了 作者 识别 验证 ， 证 明了 N-gram 的 语言 无 关 性 。 国 内 祁 瑞 华 Q0 
团队 则 是 从 综合 利用 文本 特征 进行 作者 识别 的 角度 从 字符 层面 、 词 汇 层面 、 句 法 层面 和 结 
构 层 面 选 取 特 征 ， 建 立 多 层面 文体 风格 特征 模型 ， 不 仅 实 现 了 社交 文本 作者 识别 的 研究 ， 
多 特征 的 选取 及 在 作者 识别 中 的 可 行 性 在 研究 中 也 得 到 了 验证 。 
而 利用 主题 特征 进行 作者 识别 的 研究 在 早期 很 少 出 现 ， 因 为 主题 特征 往往 反映 的 是 文 
本 的 内 容 ， 而 文本 内 容 在 不 同体 裁 ， 不 同情 景 下 很 难 做 到 统一 ， 但 是 仍 有 研究 表明 主题 特 
征 作为 文体 特征 的 补充 对 于 作者 识别 有 积极 意义 ， 如 FinnI2 等 人 通过 研究 文档 分 类 与 文档 
主题 的 关系 ， 就 发 现 以 同一 主题 下 文档 类 型 分 类 容易 得 到 较 好 效果 ， 这 说 明 主 题 特征 对 于 
补充 其 他 特征 用 于 文本 分 类 有 一 定 积 极 作用 。 同 时 ， 随 着 主题 模型 的 发 展 ， 更 多 的 研究 者 
也 开始 将 其 应 用 于 作者 识别 中 ， 具 有 代表 性 的 就 是 Savoy 中 进行 的 相关 研究 ， 其 利用 LDA 
分 别 生 成 每 个 作者 所 有 文档 的 主题 模型 、 待 测试 文档 主题 模型 ， 然 后 计算 主题 相似 度 来 进 
行 作者 归属 和 识别 ， 而 与 本 研究 比较 相似 的 研究 是 Waheed Anwar04 等 人 提出 的 实验 验证 ， 
其 利用 余弦 相似 度 和 LDA 方法 来 衡量 文本 文档 向 量 的 相似 度 ， 最 终 达到 作者 识别 的 目的 ， 
而 其 在 构建 的 包含 6000 篇 文章 文档 的 数据 集 上 进行 实验 得 到 的 结果 表明 ， 该 方法 优 于 其 他 
用 于 作者 归属 的 算法 。 


2014 年 ，Y. Nie03 等 人 提出 ， 因 为 人 的 精力 有 限 ， 社 交 网 络 的 使 用 者 围绕 的 兴趣 也 有 
限 ， 这 些 兴 趣 中 ， 既 有 核心 兴趣 ， 也 存在 和 暂时 的 边际 兴趣 。 而 所 谓 核心 兴趣 是 指 相 对 稳定 
的 ， 在 短期 内 不 会 改变 ， 且 在 作者 发 布 文本 中 有 较 好 体现 的 兴趣 ， 而 体现 在 文本 中 即 是 核 
心 主题 。2016 年 ，Shouzhong09 等 人 提出 利用 Textrank 结合 TF-IDF 对 社交 网 络 文本 核心 主 
题 进 行 识别 ， 并 将 其 应 用 于 微 博 数据 中 。 其 通过 为 每 个 类 别 分 配 权 重 并 计算 关键 字 的 权 习 
的 方法 对 每 个 关键 字 的 排名 进行 评分 从 而 识别 出 核心 主题 。 

上 述 针 对 主题 特征 和 核心 主题 特征 的 研究 为 进一步 优化 使 用 主题 特征 进行 作者 识别 提 
供 了 新 的 思考 方向 。 基 于 此 ， 本 研究 以 已 有 的 利用 LDA 主题 模型 进行 作者 识别 的 相关 研究 
为 技术 路 线 支 持 中 ， 首 先 验 证 主题 特征 在 中 文 社交 媒体 文本 作者 识别 中 具有 研究 意义 ， 同 
时 从 提高 主题 特征 质量 的 思路 出 发 ， 以 提高 作者 识别 效率 为 最 终 目 的 ， 提 出 了 使 用 LDA È 
题 模型 结合 基于 word2vec 的 核心 主题 科 选 策略 构建 候选 作者 的 核心 主题 识别 筛 选 模型 ， 最 
终 完成 科研 作者 的 社交 媒体 文本 的 作者 识别 验证 实验 。 
2 主要 技术 路 线 


本 研究 对 科研 人 员 在 社交 网 站 上 发 表 的 匿名 文本 进行 作者 身份 识别 ， 而 科研 人 员 通 1 
都 有 自己 关注 的 科研 领域 ， 其 在 社交 网 站 上 发 布 的 社交 文本 信息 也 会 对 其 科研 领域 主题 
所 体现 ， 所 以 本 研究 将 科研 人 员 的 科研 领域 主题 作为 核心 主题 。 而 每 个 科研 人 员 的 科研 
题 特征 可 以 从 该 科研 人 员 发 表 的 学 术 论文 中 获得 ， 科 研 人 员 社交 主题 特征 可 以 通过 实名 
交 网 站 信息 获得 ， 所 以 可 以 利用 学 术 文 本 中 获得 的 主题 特征 对 社交 网 络 中 的 主题 特征 进 
筛选 ， 最 终 得 到 本 研究 的 核心 主题 。 

本 研究 提出 利用 主题 特征 进行 作者 识别 的 方法 框架 如 图 1 所 示 ， 可 以 概括 为 3 个 主要 
步骤: 
(1) 作者 主题 特征 抽取 。 分 别 从 两 类 数据 源 抽取 两 类 主题 特征 : 利用 科技 论文 数据 抽取 候 

选 作者 的 科研 主题 特征 、 利 用 实名 制 社交 网 站 数据 抽取 候选 作者 社交 主题 特征 。 利 用 

LDA 主题 模型 分 别 获得 作者 学 术 文本 和 社交 网 络 文本 的 主题 集合 。 
(2) 生成 作者 主题 特征 模型 。 识 别 候选 作者 核心 主题 ， 将 科研 主题 特征 与 社交 主题 特征 合 
并 ， 生 成 候选 作者 主题 特征 模型 。 
(3) 计算 待 识别 文本 与 作者 的 相似 度 。 分 别 计算 待 识别 文本 主题 特征 与 各 个 候选 作者 主题 

特征 相似 度 得 到 最 相似 的 作者 作为 待 识别 文本 最 终 的 作者 识别 结果 。 
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图 1 流程 框架 


2.1 作者 主题 识别 抽取 


对 文本 的 作者 身份 识别 ， 首 选 需要 获取 候选 作者 的 特征 ， 基 于 LDA 对 主题 的 抽取 能 
LDA 模型 经 常 应 用 与 主题 抽取 的 相关 研究 中 中 ， 所 以 本 研究 选择 采用 LDA 主题 模型 的 方 


法 对 候选 作者 的 主题 特征 进行 识别 和 表示 。 

LDA 模型 是 一 种 概率 主题 模型 ， 其 基于 假设 : 文档 是 由 若干 个 隐 含 主题 构成 ， 而 这 些 
主题 是 由 文本 中 若干 个 特定 词汇 构成 ， 忽 略 文档 中 的 句法 结构 和 词语 出 现 的 先后 顺序 
US, LDA 主题 模型 由 参数 (aq，B) 确 定 ，a 反映 了 文档 集合 中 隐 含 主题 间 的 相对 强 弱 ，B 刻画 
所 有 隐 含 主题 自身 的 概率 分 布 叫 ， 从 Dirichlet 分 布 x 中 取样 生成 文档 -主题 分 布 6， 从 
Dirichlet 分布 B 中 取样 生成 主题 -词语 分 布 p。 

在 本 研究 中 ， 将 每 个 候选 作者 的 文本 归 为 两 类 文档 集 ， 然 后 分 别 对 这 两 个 文档 集 进 行 
主题 抽取 ， 能 够 得 到 每 个 文档 集中 每 篇 文本 的 文本 -主题 概率 分 布 ， 和 每 个 文档 集中 抽取 的 
FE 题 -词语 分 布 ， 将 每 篇 文本 对 应 的 主题 分 布 概率 进行 平均 ， 就 得 到 了 文本 集 综合 文档 - 主 
题 概率 分 布 。 利 用 LDA 从 一 个 文档 集 抽取 出 的 一 个 主题 集合 可 以 表示 为 : 
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A 其 中 T 是 主题 ， 由 主题 词 和 每 个 主题 词 的 权重 (对 主题 的 贡献 度 ) 组 成 ，P 为 主题 分 
I 布 概率 ， 即 对 每 篇 文章 中 对 应 主题 的 分 布 概率 计算 平均 值得 到 的 ，k 为 主题 集合 五 中 的 主 
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题 个 数 。 针 对 工 展开 可 以 表示 为 : 
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其 中 T 为 主题 ， 由 主题 词 W 组 成 ，m 为 该 主题 词 在 主题 中 的 分 布 概率 ，c 为 主题 中 包 
含 的 主题 词 的 个 数 。 
主题 抽取 过 程 最 后 每 个 候选 作者 可 以 得 到 两 个 主题 集合 : 在 学 术 文 本 中 得 到 的 主题 矩 
阵 了 苇 ， 代 表 的 是 候选 作者 的 科研 主题 特征 ， 在 社交 网 络 文本 中 得 到 的 矩阵 了 东 ， 代 表 的 是 候 
选 作 者 的 社交 主题 特征 。 
2.2 核心 主题 特征 计算 


© 2.2.1 核心 主题 计算 启发 式 规则 


本 研究 认为 科研 作者 的 科研 主题 特征 是 其 核心 主题 ， 这 些 主题 特征 在 其 社交 主题 中 可 
也 会 有 所 体现 ， 所 以 核心 主题 筛选 的 最 终 目 的 是 找到 候选 作者 社交 主题 中 涉及 的 核心 主 
即 科 研 主题 。 该 过 程 中 需要 解决 的 问题 主要 是 如 何在 候选 作者 的 社交 主题 特征 中 找到 与 
科研 主题 特征 相似 的 主题 以 及 该 通过 什么 样 的 手段 使 其 在 作者 识别 中 起 更 重要 的 作用 。 
针对 上 述 问 题 ， 本 研究 基于 以 下 启发 式 规 则 进行 策略 制定 : 

(1) 利用 LDA 主题 模型 抽取 出 的 主题 特征 由 主题 词汇 组 成 ， 两 个 主题 之 间 的 相似 度 可 以 通 
过 主题 词汇 之 间 的 相似 度 进行 衡量 。 
(2) 利用 LDA 主题 模型 抽取 主题 特征 ， 可 以 获得 文档 -主题 的 概率 分 布 和 主题 -词汇 的 概率 
分 布 ， 主 题 的 分 布 概率 越 大 ， 说 明 该 主题 对 文档 的 内 容 贡献 越 大 ， 词 汇 的 分 布 概率 越 
大 ， 说 明 该 词汇 对 主题 的 贡献 越 大 。 
基于 上 述 的 启发 式 规则 ， 在 这 一 过 程 中 可 以 尝试 利用 工具 或 者 模型 计算 科研 主题 和 社 
交 主 题 之 间 的 相似 度 来 发 现 识别 核心 主题 特征 ， 并 利用 主题 和 主题 词 的 分 布 概率 来 表示 主 
题 在 识别 中 的 重要 性 ， 从 而 达到 核心 主题 识别 筛选 的 效果 。word2vec 利用 深度 学 习 的 思想 ， 
可 以 从 大 规模 的 文本 数据 中 自动 学 习 数据 的 本 质 信 息 色 ， 从 而 通过 计算 主题 词汇 之 间 的 相 
似 度 达 到 计算 主题 相似 度 的 目的 。 
2.2.2 核心 主题 特征 识别 计算 


Xt ORE 


(1) 工具 训练 

word2vec 模型 在 给 定 的 语料库 上 训练 CBOW 和 Skip-Gram 两 种 模型 ， 然 后 输出 得 到 所 
有 出 现在 语料库 上 的 单词 的 词 向 量 表 示 2。 基 于 得 到 的 单词 词 回 量 ， 可 以 计算 词 与 词 之 间 
的 关系 ， 如 词语 相似 性 等 ， 从 而 可 以 定义 主题 的 相似 度 ， 进 而 计算 主题 集 也 就 是 作者 和 待 
识别 文本 主题 特征 的 相似 度 ， 最 终 达 到 作者 识别 的 目的 。 
本 文采 用 开源 的 Word2vec 工具 ， 将 候选 作者 的 两 类 文本 结合 腾讯 词 向 量 作为 训练 数据 ， 
用 Skip-gram 模型 对 训练 数据 进行 训练 ， 得 到 训练 数据 中 每 个 词 的 词 向 量 。 表 1 给 出 了 
word2vec 的 参数 含义 及 选择 ， 其 中 cbow 非 0 时 对 低频 词 敏感 ，size 则 是 输出 词 向 量 的 维 数 ， 
即 神经 网 络 的 隐藏 层 的 单元 数 ， 其 取 值 太 小 会 导致 词 映射 因为 冲突 而 影响 结果 ， 值 太 大 则 
会 耗 内 存 并 使 算法 计算 变 慢 ， 大 的 size 需要 更 多 的 训练 数据 ， 但 是 效果 会 更 好 的 。 参 数值 


的 选择 是 根据 已 有 的 研究 选 定 的 后 。 表 2 给 出 了 按照 相似 度 排列 的 词 向 量 训练 结果 示例 。 
K 1 Word2vec 参数 设置 情况 

za Jam >p 

ARNAR 

上 下 文 窗口 的 天 不 
1 
3 | 
4 | 


| 词语 出 现 的 最 小 阐 值 00000 
| 是 否 使 用 cbow 模型 《0 为 使 用 ) ”|3 
| 计算 核心 |4 
表 2 词 向 量 训 练 结果 示例 


[mm f Du LAN 


0.8438003 HUE 因特网 0.8794277 

- 0.8386404 互连网 0.8775173 

A 0.8251010 p 0.8645825 
i 0.8053851 aR 0.8616846 

i ^ 0.8025305 m 0.8224803 
计算 机 基础 0.7992088 网 际 网 络 0.8220754 
计算 机 专业 0.7953601 互联 网 通讯 | 0 8047673 


操作 系统 0.7944639 移动 互联 网 


电脑 


j 
(2) 核心 主题 筛选 与 合并 策略 
利用 候选 作者 科研 主题 对 其 社交 主题 进行 筛选 与 合并 的 具体 策略 可 以 分 为 以 下 几 个 步 


1) 针对 有 的 主题 本 身 的 分 布 概率 就 很 低 ， 能 够 代表 该 文本 主要 内 容 的 概率 较 低 的 问题 ， 
为 了 避免 主题 特征 的 元 余 ， 首 先 利用 主题 在 主题 矩阵 中 的 分 布 概率 对 主题 矩阵 H, 主 题 
特征 进行 初步 筛选。 

2) “ 初 筛 过 后 ， 需 要 利用 相似 度 计算 找到 和 矩阵 H,5SBEE HH 中 相似 的 主题 ， 将 其 识别 出 来 ， 
赋予 更 高 的 识别 权重 。 因 为 学 术 文 本 主题 集合 由 主题 组 成 ， 主 题 由 主题 词组 成 ， 所 以 
此 步骤 中 需要 对 三 个 相似 度 计算 进行 定义 : 

其 中 T 为 主题 ， 由 主题 词 W 组 成 ，P 为 该 主题 在 矩阵 中 的 分 布 概率 ，m 为 该 主题 词 在 
主题 中 的 分 布 概率 。k IEE PHERS, z 为 主题 中 包含 的 主题 词 的 个 数 。 
定义 词汇 相似 度 : 


(1) 
定义 主题 之 间 的 相似 度 sim(Ti,T;): 词汇 相似 度 的 加 权 平均 ， 权 重 是 词汇 组 成 主题 的 概 
率 : 


(2) 


定义 主题 矩阵 〈 主 题 集 ) ZEWA simh, H): 主题 相似 度 的 加 权 平 均 ， 权 重 是 该 
主题 的 分 布 概率 : 


(3) 
3) ”合并 规则 


筛选 合并 规则 的 整体 思想 是 利用 上 述 定义 的 加 权 相 似 度 计算 的 方法 ， 找 到 每 个 社 
交 主 题 特征 最 相似 的 科研 主题 特征 ， 根 据 病 值 判断 是 否 增加 其 权重 将 其 作为 识别 过 程 
中 的 核心 主题 。 同 时 针对 社交 主题 特征 中 的 主题 词 ， 同 样 利用 相同 的 方法 判断 其 是 否 
相似 于 科研 主题 词 ， 并 通过 阔 值 判断 进行 权重 重新 赋值 ， 而 若 主 题 相似 主题 词 不 相似 ， 
则 考虑 将 科研 主题 % 滞 汇 添加 到 社交 主题 中 用 于 补充 主题 特征 。 具 体 第 先 合 并 规则 如 下 
代码 形式 所 示 : 


3 实验 与 结果 分 析 


为 了 验证 主题 特征 在 作者 识别 中 的 意义 ， 同 时 证 明 本 研究 核心 主题 策略 算法 对 利用 主 
题 特 征 进 行 作 者 识别 的 提高 效果 ， 本 研究 的 基线 实验 是 利用 社交 网 络 文本 抽取 的 原始 主题 
进行 作者 识别 ， 对 比 实验 是 利用 学 术 文本 抽取 出 的 主题 对 社交 网 络 文本 主题 进行 筛选 合并 
后 的 核心 主题 进行 作者 识别 ; 同时 因为 作者 识别 任务 利用 多 层次 特征 是 研究 发 展 方向 ， 所 
以 本 研究 也 进行 了 文体 风格 特征 结合 核心 主题 特征 进行 作者 识别 与 仅 使 用 文体 风格 特征 进 
行 作者 识别 的 对 比 实 验 ， 用 以 验证 核心 主题 特征 对 于 文体 风格 特征 的 补充 作用 。 
3.1 数据 获取 和 预 处 理 


研究 选择 计算 机 领域 的 20 位 科研 人 员 作 为 候选 作者 ， 利 用 扑 虫 分 别 获取 其 知 网 上 发 布 
的 论文 文本 以 及 其 在 科学 网 上 发 布 的 博客 文本 作为 实验 数据 集 。 论 文 数据 共 5612 条 ， 博 客 
数据 共 5980 条 。 利 用 jieba 工具 进行 分 词 处 理 ， 同 时 对 分 词 结果 利用 频次 和 词性 等 进行 第 
选 ， 去 除 人 名 、 停 用 词 、 动词 、 通 用 词 等 影响 因素 ， 保 证 主题 的 表示 更 具有 代表 性 。 随 机 
抽取 20% 的 科学 网 文本 作为 测试 集 ， 剩 余 80% 和 全 部 的 论文 文本 作为 训练 集 进行 作者 识别 


模型 训练 。 数 据 数量 如 表 3 所 示 ， c Hr A MM MN 


ETTET E EE 


EAE 


有 向 服务 的 计算 和 普 适 计算 等 ) 的 出 
A 服务 是 一 

分 布 在 网 络 中 的 各 个 设备 ， 通 过 彼此 协作 提供 
看 到 一 篇 文章 谈 到 普 适 计算 本 去 计算 的 区 别 ,该 广 认 为 去 计算 是 个 可 商业 实 
现 的 平台 , 它 是 包含 于 普 适 计算 当中 。 换 句 话 说 , 普 适 计算 的 概念 更 为 广泛 。 本 
人 较 认 同 该 观点 ， 但 我 认为 普 适 计算 是 提出 了 一 种 新 的 计算 模式 ， 目 的 还 是 


更 广泛 地 资源 融合 ,以 及 相关 技术 融合 ;当然 也 产生 了 很 多 挑战 。 


3.2 实验 设置 


(1) 主题 特征 抽取 

(EH LDA 主题 模型 获取 文本 主题 ， 采 取 开 源 的 Gibbs 为 采样 工具 ， 其 参数 设置 如 下 : 
模型 参数 ，a、B 分别 设 为 50/T 和 00.1 中。 至 于 主题 数 的 选择 ， 研 究 在 对 每 个 候选 作者 的 社 
交 网 络 文本 和 学 术 文 本 进行 LDA 主题 抽取 时 ， 首 先 对 训练 文本 利用 困惑 度 选择 主题 的 可 
取 值 范围 。 困 惑 度 如 图 2 所 示 。 
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图 2 困惑 度 曲线 图 

因为 不 同 的 实验 语 料 最 佳 的 主题 数 是 不 同 的 ， 为 了 保证 实验 主题 选择 的 一 致 性 ， 研 究 

进一步 计算 了 T 的 取 值 范围 上 的 作者 识别 效果 ， 最 终 选择 T=15 作为 主题 数 。 表 5 是 候选 作 
者 核心 主题 识别 计算 


表 5 作者 3 的 社交 网 络 文本 主题 分 布 


'0.082*# 互 联网 "0.030* 大 脑 , '0.012* 人 类 ','0.011* 网 络 ','0.010* 进 
化 ' ,0.009* 系 统 ','0.009* 结 构 ','0.008* 社 交 ','0.008* 人 脑 ','0.008* 虚 
拟 ','0.007* 神 经 系统 ','0.007* 数 据 ','0.006* 神 经 学 ' ,'0.006* 神 经 ','0.006* 
功能 ' 


'0.035* 威 客 ','0.030* 互 联网 ,0.012* 知 识 ','0.011* 模 式 ','0.009* 理 
160.008 L^£'/0.006* R RE 0.006 fft 8, 0.005 78 25:0.004* T. 0.19857088 


作 '"0.004*# 功 能 '"0.004*# 博 客 '"0.004*# 进 化 论 '"0.004* A 250.004 E 


'0.044* Hr B 910.0247 481 550.0 19 C RÀ 0.016** 7 88 ,0.012* Z& 
255 ,0.012* x 5E 9C, 0.0 11 ATI E 0.011 A 258,0.010* 5 90, 0.010* 0.05575676 


0.28120354 


神经 系统 ','0.010* 进 化 ','0.010* 建 设 ','0.009* 社 会 ','0.009* 架 构 ','0.008* 
数据 


'0.002* 电 平 '"0.002* 电 容 '"0.001* 电 压 ',"0.001* 开 关 '"0.001* 拓 
3P,0.00 146; H1',0.00 L*3 2E 280.00 1 £8. 7650.00 L 8.75, 0.00 1 R 0.11438579 


1&,0.00 L8] rb] 0.00 1232232 0.00 1* — 40.00 L5 /0.00 2C 


'0.053* 大 脑 ', '0.044* 互 联网 , '0.014* 智 能 ', 0.013* A 2, 0.010 1H: 
界 ' ,'0.009* 发 展 ','0.009* 技 术 ', '0.009* 系 统 ', '0.009* 建 设 ', '0.009* 科 0.25008285 
技 ','0.007* 进 化 ' ,0.007* 模 型 ''0.006* 智 慧 ', '0.006* 数 据 ','0.005* 信 息 ' 

(2) ”核心 主题 筛选 策略 阅 值 设置 
通过 计算 候选 作者 学 术 文 本 主题 矩阵 和 社交 网 络 文本 主题 矩阵 的 相似 度 ， 得 到 平均 值 

0.0018; 通过 计算 候选 作者 学 术 文本 主题 和 社交 文本 主题 的 相似 度 ， 得 到 平均 值 0.2375 。 

以 此 为 基准 设置 闹 值 和 系数 的 优化 实验 ， 通 过 实验 迭代 ， 选 择 91=0.001、0,=0.25 作为 较 优 

ERE. WU yi. yp、oi 和 的 取 值 ， 本 研究 做 了 迭代 实验 ， 结 果 分 别 如 图 3 和 图 4 所 示 。 
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图 3 系数 yi Y2 实验 结果 
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图 4 系数 ao、 实验 结果 

所 以 ， 经 过 实验 优化 ， 选 择 系数 y=y,=0.5，@1=0.33，@2=0.66。 
(3) ”评价 指标 

实验 评估 方法 采用 精确 率 〈Precision) 、 召 回 率 (Recall) 和 F1 测试 值 。 可 以 假设 : 
A 为 表示 判断 为 作者 S 且 判 别 正确 的 文本 个 数 ，B 表示 判断 为 写作 风格 S 但 判别 错误 的 
文本 个 数 ，C 表示 判断 为 不 属于 作者 S 且 判 别 错误 的 文本 个 数 ，D 表示 判断 为 不 属于 作者 
S 且 判 别 正 确 的 文本 个 数 ， 则 我 们 可 以 得 到 指标 的 计算 公式 。 

(4) (5) 
(6) 


3.3 实验 结果 分 析 


(1) 核心 主题 特征 与 主题 特征 的 实验 效果 对 比 
表 6 展示 了 部 分 代表 性 作者 利用 主题 特征 和 核心 主题 特征 结合 文体 风格 特征 进行 作者 
识别 的 结果 对 比 。 


X6 主题 特征 与 核心 主题 特征 进行 作者 识别 结果 对 比 
| 作者 | PP | R |  F — | 
EE 1 0.8193 0.8000 0.8095 
0.8571 0.5455 0.6667 
0.4118 0.8750 0.5600 
0.2333 0.8750 0.3684 


主题 特征 1.0000 1.0000 1.0000 
0.5227 0.3965 0.4510 


综合 (20 名 作 0.6674 0.6609 0.6886 
者 


核心 主题 特征 作者 1 0.9512 0.9176 0.9341 


作者 2 0.8000 0.7273 0.7619 
作者 3 0.5000 0.8750 0.6364 


作者 4 1.0000 0.8750 0.9333 
作者 5 0.9091 1.0000 0.9524 
作者 6 0.6774 0.3621 0.4719 


综合 (0 名 作 0.7837 0.8276 0.8521 
者 ) 


分 析 表 6 可 以 发 现 : 
综合 来 看 利用 核心 主题 特征 进行 作者 识别 的 三 个 衡量 指标 都 有 所 提高 ， 这 说 明了 利用 学 
术 主 题 特 征 对 社交 网 络 文本 主题 特征 进行 筛选 合并 得 到 的 核心 主题 特征 应 用 于 作者 识别 ， 
能 一 定 程 度 提 高 识别 的 准确 率 ， 有 一 定 的 优化 作用 。 
包 具 体 到 候选 作者 ， 可 以 看 到 大 部 分 的 作者 的 识别 效果 能 得 到 一 定 的 提升 ， 但 是 以 作者 6 
为 代表 的 候选 作者 P 指标 和 了 Fl 指标 均 有 所 下 降 ， 分 析 数 据 可 以 发 现 该 利用 核心 主题 的 方法 
针对 在 社交 网 络 中 主题 较为 集中 ， 且 有 较 大 比例 涉及 到 其 在 学 术 中 的 研究 领域 的 作者 更 有 
效果 ; 而 针对 在 社交 网 络 文本 中 不 涉及 或 者 少量 涉及 学 术 领 域 的 作者 ， 该 方法 取得 的 优化 
效果 较 小 。 
(2) 核心 主题 特征 对 文体 风格 特征 的 补充 验证 实验 

根据 已 有 的 研究 ， 仅 使 用 一 种 特征 进行 作者 识别 的 效果 是 不 突出 的 ， 多 层次 特征 结合 
使 用 才 是 作者 识别 的 发 展 方向 。 所 以 为 了 验证 本 研究 的 核心 主题 特征 对 于 文体 风格 特征 有 
补充 作用 ， 对 于 结合 其 他 特征 进行 作者 识别 也 有 进一步 的 研究 前 景 ， 下 面 进 行 核 心 主题 特 
征 对 文体 风格 特征 的 补充 验证 实验 。 
本 研究 选择 的 文体 风格 特征 是 N-gram 特征 ， 它 可 以 捕捉 到 作者 风格 的 细微 差别 ， 包 括 
由 词汇 、 上 下 文 、 标 点 符号 以 及 大 小 写 变 动 所 带 来 的 差别 外， 表示 方便 ， 识 别 效 率 较 高 。 
因为 N-gram 特征 的 抽取 和 使 用 已 经 较为 成 熟 ， 所 以 下 面 仅 前 述 结 合 其 在 实验 中 的 使 用 。 套 
究 利 用 两 种 特征 分 别 计算 待 识别 文本 与 候选 作者 的 相似 度 ， 然 后 对 相似 度 进行 加 权 分 析 ， 
相似 度 最 高 的 作者 作为 最 终 的 识别 结果 。 加 权 系 数 经 过 多 次 交叉 实验 ， 其 他 系数 和 影响 因 
素 不 变 的 情况 下 ， 选 择 文体 风格 特征 系数 为 0.82， 主 题 特征 系数 为 0.18 时 识别 的 文本 数 最 
多 ， 效 果 最 好 ， 故 以 此 为 特征 系数 。 

本 实验 用 CountVectorizer 方法 ， 设 置 闵 值 为 min df 2， 基于 此 构建 作者 的 N-gram 特 


征 向 量 。 表 8 是 作者 2 的 部 分 N-gram 特征 。 
表 8 作者 N-gram 特征 示例 
{( 软 件 工 程 , ' 软 件 工程 ): 2, (软件 工程 , ' 专 
Ay? 2, (专业 ,必修 ): 2, QM, Hz My): 2, 
(专业 ', E fli): 2, (涉及 , ARN: 2, (包含 ,， 


软件 ) 2, (软件 ,生命 周期 ): 2, (生命 周期 ， 
'Br Bt): 2, (阶段 ', ' 需 要 "): 2, (需要 ', AVAL: 
2, (一 门 , ' 概 论 ): 2, (概论 ', "性 质 "): 2, (性 质 '， 
' 课 程 ): 2} 
K 9 展示 了 仪 使 用 文体 风格 特征 识别 的 和 结合 文体 风格 特征 与 核心 主题 特征 识别 的 结 


表 9 实验 特征 组 合 识别 结果 
N-gram 特征 


mM 综合 (20 名 作 0.6326 0.5690 0.6336 
者 ) 


0.9512 0.9176 0.9341 
作者 2 0.8000 0.7272 0.7619 
作者 3 0.5000 0.8750 0.6364 


4 作者 4 1.0000 0.8750 0.9333 
2: 作者 5 0.9091 1.0000 0.9524 
| TT 0.6774 0.3621 0.4719 


综合 (20 名 作 0.7837 0.8276 0.8521 
者 ) 


分 析 表 9， 可 以 发 现 : 
中 从 综合 结果 来 看 ， 利 用 核心 主题 结合 文体 风格 特征 作者 识别 的 效果 要 优 于 仅 使 用 N-gram 
特征 进行 识别 ， 这 说 明 在 该 实验 集 上 ， 核 心 主题 特征 的 使 用 对 作者 识别 有 积极 作用 。 
包 具 体 到 每 个 候选 作者 ， 可 以 看 到 ， 多 数 的 作者 主题 特征 的 识别 效果 是 积极 的 ， 这 也 充分 
论证 了 科研 人 员 的 领域 主题 能 一 定 程度 上 成 为 该 作者 标签 特征 ， 这 是 具有 个 人 性 的 特征 。 
而 针对 作者 5 为 代表 的 作者 ， 其 Fl 值 降低 ， 作 者 6 为 代表 的 作者 ， 其 召回 率 和 精准 率 均 降 
低 ， 则 认为 主题 特征 未 起 到 积极 效果 ， 笔 者 分 析 其 文本 认为 这 与 其 所 关注 的 领域 较为 宽泛 
且 学 术 领 域 与 科研 文本 中 的 主题 相差 较 大 ， 以 至 于 本 研究 的 核心 主题 科 选 合并 策略 未 起 到 
较 大 作用 ， 而 添加 主题 特征 作为 识别 特征 相当 于 增加 了 干扰 项 ， 导 致 识别 准确 率 下 降 。 而 
针对 这 一 现象 ， 后 续 可 以 通过 分 步 式 结合 两 种 特征 的 方法 进行 改善 ， 如 先 利 用 主题 特征 进 
行 作 者 识别 ， 给 出 相似 的 几 个 候选 作者 ， 缩 小 候选 作者 数量 ， 然 后 进一步 通过 N-gram 特征 
得 到 最 相似 的 候选 作者 作为 识别 结果 。 
人 分 析 不 同 候选 作者 的 识别 效果 ， 发 现 训练 训练 语 料 的 体 量 也 会 影响 主题 特征 在 作者 识别 
上 的 应 用 效果 ， 在 目前 实验 中 ， 训 练 数据 越 多 ， 抽 取出 的 主题 特征 越 具 有 代表 性 ， 识 别 的 
准确 性 也 越 高 。 候 选 针 对 该 影响 ， 可 以 继续 通过 控制 实验 数据 大 小 进行 对 比 实验 。 
(3) 结论 

通过 对 结果 的 分 析 可 以 看 出 ， 在 核心 主题 特征 对 于 主题 特征 的 优化 方面 ， 可 以 发 现 使 
用 筛选 得 到 的 核心 主题 进行 作者 特征 表示 并 用 于 作者 识别 的 效果 优 于 仅 利 用 原始 抽取 出 的 
主题 特征 ， 这 有 效 证 明 ， 针 对 科研 人 员 的 社交 网 络 文本 的 作者 识别 ， 利 用 其 在 学 术 文本 中 
所 体现 的 领域 主题 对 其 社交 网 络 文本 主题 特征 进行 盘 选 和 合并 ， 能 够 进一步 优化 主题 特征 
筛选 并 给 予 识 别 作 用 更 大 的 特征 更 高 的 权重 ， 从 而 提高 作者 识别 的 准确 率 ， 进 而 优化 作者 
识别 效果 ; 在 核心 主题 特征 结合 其 他 特征 在 作者 识别 中 的 应 用 效果 方面 ， 核 心 主题 特征 能 
够 有 效 地 提高 仅 利用 N-gram 特征 作者 识别 的 效果 ， 这 证 明 在 本 研究 的 实验 语 料 上 ， 核 心 主 
题 特征 对 于 结合 文体 风格 特征 用 于 作者 识别 有 一 定 的 积极 意义 。 
4 总 结 展望 


本 研究 重点 研究 了 结合 学 术 文本 对 利用 主题 特征 进行 作者 识别 的 可 行 性 ， 以 及 其 的 优 

化 策略 。 通 过 实验 验证 ， 结 果 显 示 优 化 策略 是 有 效 的 ， 在 此 进行 总 结 并 讨论 未 来 可 以 继续 

优化 的 内 容 : 

(1) 本 研究 重心 在 主题 特征 的 使 用 优化 方向 ， 可 以 发 现 利 用 学 术 文本 的 领域 主题 对 候选 作 
者 的 社交 网 络 文本 主题 进行 筛选 得 到 的 核心 主题 特征 有 提高 利用 主题 特征 作者 识别 效 
果 的 作用 ;研究 也 尝试 结合 N-gram 特征 和 核心 主题 特征 ， 同 时 对 比 仅 使 用 N-gram 特 

征 ， 结 合 主题 特征 对 作者 识别 也 有 一 定 程度 上 的 提升 。 进 一 步 研究 可 以 考虑 从 其 他 文 

体 风格 特征 出 发 ， 或 者 结合 多 层次 文体 风格 特征 进行 应 用 研究 。 

(2) 本 研究 在 对 待 识别 文本 进行 作者 识别 实验 时 ， 使 用 LDA 主题 模型 作为 主题 抽取 的 方法 ， 
而 随 着 相关 研究 的 发 展 ， 其 他 主题 模型 或 者 其 他 主题 抽取 方式 或 许 较 LDA 主题 模型 能 
取得 不 同 的 效果 。 所 以 针对 主题 获取 这 一 步骤， 后 续 研究 可 以 尝试 从 主题 获取 方法 入 
手 ， 尝 试 进一步 优化 识别 效果 。 


202302.00059v1 


chinaXiv 


(3) 本 研究 目前 仅 考 察 利用 文本 的 内 容 信息 进行 作者 识别 ， 未 来 随 着 网 站 文本 属 


户 属 性 的 完善 ， 亦 可 以 考虑 借助 社交 网 络 相 邻 用 户 的 文本 信息 和 属性 信息 进 


取 和 核心 主题 选择 ， 相 信和 能 进一步 提高 作者 识别 效果 。 


或 者 用 


了 特征 抽 
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